#ingeniería de recompensas

Más allá de la ingeniería de recompensas: datos para RL de contexto largo

Un estudio revela que una receta de datos minimalista con GRPO logra mejoras de +7 puntos en benchmarks de largo contexto y +4.8 en GAIA.